有监督的基于深度学习的方法已应用于以任务为导向的对话框,并在有足够数量的培训示例可用时对有限的域和语言应用有效。在实践中,这些方法遭受了域驱动设计和资源不足的语言的缺点。域和语言模型应该随着问题空间的发展而增长和变化。一方面,对转移学习的研究证明了基于多语言变压器模型学习语义丰富的表示的跨语性能力。另一方面,除了上述方法之外,元学习还能够开发任务和语言学习算法,能够实现泛滥。在这种情况下,本文提出了使用典型的神经网络和基于多语言变压器的模型来研究使用协同进行几次学习的跨语性可传递性。自然语言的实验理解多亚提斯++语料库的任务表明,我们的方法基本上改善了低资源和高资源语言之间观察到的转移学习表现。更普遍地说,我们的方法证实,可以将具有特定语言的有意义的潜在空间推广到使用元学习的情况下看不见和资源不足的潜在空间。
translated by 谷歌翻译
在过去的五年中,基于自动变压器的体系结构的兴起导致了许多自然语言任务的最新表现。尽管这些方法越来越受欢迎,但它们需要大量的数据和计算资源。在数据范围的应用程序条件下,在资源不足的语言上,基准测试方法仍然非常需要对方法进行基准测试。大多数预训练的语言模型都使用英语进行了大规模研究,其中只有少数在法语上进行了评估。在本文中,我们提出了一个统一的基准测试,重点是评估模型质量及其对两个法语口语理解任务的生态影响。尤其是我们基于13个完善的基于变压器的模型基于法语的两个可用语言理解任务:媒体和ATIS-FR。在此框架内,我们表明紧凑的模型可以与较大的模型达到可比的结果,而生态影响却大大降低。但是,此假设是细微的,取决于考虑的压缩方法。
translated by 谷歌翻译
对于许多任务,基于变压器的体系结构已经实现了最新的结果,从而导致实践从使用特定于任务的架构到预先训练的语言模型的微调。持续的趋势包括具有越来越多的数据和参数的培训模型,这需要大量资源。它导致了强有力的搜索,以提高基于仅针对英语评估的算法和硬件改进的算法和硬件改进。这引发了有关其可用性的疑问,当应用于小规模的学习问题时,对于资源不足的语言任务,有限的培训数据可用。缺乏适当尺寸的语料库是应用数据驱动和转移学习的方法的障碍。在本文中,我们建立了致力于基于变压器模型的可用性的最新努力,并建议评估这些改进的法语表现,而法语的效果很少。我们通过通过数据增强,超参数优化和跨语性转移来调查各种培训策略来解决与数据稀缺有关的不稳定。我们还为法国弗拉伯特(Fralbert)引入了一种新的紧凑型模型,该模型在低资源环境中被证明具有竞争力。
translated by 谷歌翻译
自我监督模型在机器学习(ML)中越来越普遍,因为它们减少了对昂贵标签数据的需求。由于它们在下游应用程序中的多功能性,它们越来越多地用作通过公共API暴露的服务。同时,由于它们输出的向量表示的高维度,这些编码器模型特别容易受到模型窃取攻击的影响。然而,编码器仍然没有防御:窃取攻击的现有缓解策略集中在监督学习上。我们介绍了一个新的数据集推理防御,该防御使用受害者编码器模型的私人培训集将其所有权归因于窃取的情况。直觉是,如果受害者从受害者那里窃取了编码器的培训数据,则在受害者的培训数据上,编码器的输出表示的对数可能比测试数据更高,但如果对其进行了独立培训,则不会。我们使用密度估计模型来计算该对数可能性。作为我们评估的一部分,我们还建议测量被盗编码器的保真度并量化盗窃检测的有效性,而无需涉及下游任务;相反,我们利用相互信息和距离测量值。我们在视觉领域中广泛的经验结果表明,数据集推断是捍卫自我监督模型免受模型窃取的有前途的方向。
translated by 谷歌翻译
我们介绍了FastCoref,这是一个用于快速,准确且易于使用的英语核心分辨率的Python软件包。该软件包是可以安装的,并且允许两种模式:基于LingMess体系结构的精确模式,提供最新的核心精度,以及基本更快的模型F-Coref,这是本工作的重点。\ Model {}允许在V100 GPU上25秒内处理2.8K Ontonotes文档(相比之下,LingMess模型为6分钟,而流行的AllennLP Coreference模型的12分钟仅适度精度下降。快速速度是通过将紧凑模型从Lingmess模型中蒸馏而成的,以及使用我们称为“剩余批处理”的技术的有效批处理实现。https://github.com/shon-otmazgin/fastcoref
translated by 谷歌翻译
确定多个文档的概念提及的练习是自然语言理解中的基本任务。以前关于跨文档Coreference解析(CDCR)的工作通常会考虑新闻中的事件提到,这很少涉及普遍存在的科学和技术的技术概念。这些复杂的概念采用不同的形式或含糊不清的形式,并且具有许多分层级别的粒度(例如,任务和子组织),构成了CDCR的挑战。我们呈现了分层CDCR(H-CDCR)的新任务,其目标是在它们之间联合推断COREREFER集群和层次结构。我们在科学论文中创建SciCo,一个专家注释的H-CDCR数据集,比突出的欧洲ecb +资源大3倍。我们研究了我们为H-CDCR定制的强大基线模型,并突出了未来工作的挑战。
translated by 谷歌翻译